查看原文
其他

新书抢先看!高分文章中的富集分析究竟有哪些图形展示形式? | 转录调控专题

运营部-LH 联川生物 2024-03-27


随着高通量测序技术的飞速发展与广泛应用,生物医学相关研究领域已进入了大规模组学数据爆发增长的时代。高通量测序对生物医学的基本分子机制研究具有重要的推动作用,但其巨大的数据量也给数据分析带来了巨大的挑战。

为了从庞杂的组学数据中发掘规律,研究者通常会对基因功能进行富集分析,期望发现在生物学过程中起关键作用的生物通路,从而揭示和理解生物学过程的基本分子机制。

基因功能的富集分析已成为功能组学数据分析的常规手段,最常用的是ORA(Over-Representation Analysis)和FCS(Functional Class Scoring)两类功能富集分析方法。ORA以fisher精确检验(超几何分布)为代表,FCS(Functional Class Scoring)以GSEA(Gene Set Enrichment Analysis)为代表。

ORA需要目标基因集,即前景基因,通常是差异基因,当然也可以是其他目标基因集,比如多个比较组联合筛选的候选基因集、多个组学联合筛选候选基因集、WGCNA分析中关注的模块基因等,下述图形以经典的差异基因富集分析为例说明(文字解释部分)。

对基因进行富集分析后可以使用一系列图形展示富集分析结果,如下:


01 柱状图


GO富集柱状图

GO富集柱状图展示的是差异基因在不同GO条目中的数目分布情况,通常以包含的基因数目排序,展示Top的条目。由于GO分为三个大类,柱状图使用不同的模块进行区隔,同时以不同颜色区分。下方横坐标为GO条目的名称,纵坐标为GO条目中包含的差异基因数目。

当需要展示每个GO条目中的上、下调基因数目分布时,也可以使用不同颜色区分上下调,而三大类以不同模块区分。

当需要更好展示GO条目名称时,可以使用转置,横向展示GO条目。

柱状图的主要用于对富集结果进行整体展示,重点展示三大类中包含差异基因数最多的条目。



02 气泡图


在大部分基于ORA的富集分析后会输出气泡图展示显著富集的条目。气泡图的颜色表示富集分析的p值或FDR值,值越小表示富集越显著;横坐标为Rich Factor、Gene Ratio或Enrichment score,表示关注基因集中某条目包含的差异基因占其背景数据库中包含基因的比例,即某条目中基因差异的比例;气泡大小表示某条目中包含差异基因中的基因数目。气泡图由于体现了富集分析的多个参数量,成为富集分析经典的体现形式之一。

气泡图的优势在于可以同时展示富集分析中最为重要的参数量,比如p值(或FDR值)、富集因子和基因数目。



03 甜甜圈图


甜甜圈图(饼图)用于比较不同比较组或比较组内上、下调基因的功能注释条目分布情况,将富集到最多基因数目的条目转化为比例,比较富集到上调基因数目最多的条目和富集到下调基因数目最多的条目。甜甜圈图外圈为包含上调基因数最多的条目,内圈为包含下调基因数最多的条目;或者外圈为组一的包含差异基因数最多的条目,内圈为组二的包含差异基因数最多的条目。

甜甜圈图优势在于美观性,但是当组别较多且条目较多时,数据展示不够直观。



04 富集圈图


富集圈图相较于气泡图能体现更多的信息,其最外圈为富集条目ID;颜色为条目分类,分类标签位于富集圈图最内侧,展示KEGG数据库第一层级分类信息;往内一圈为条目包含的基因总数;再往内一圈为条目包含的差异上调和下调基因数,体现上下调基因分布情况;再往内一圈使用柱子高度和数值表示富集因子百分比。

富集圈图美观,相对于气泡图能增加体现上下调基因数目、GO或KEGG条目的大类分类情况。缺点是最外圈一般使用ID而不方便使用条目名称,同时体现的条目数量相对而言有一定的限制。


05 上下调气泡图


气泡颜色表示分类条目,气泡大小表示基因数目,气泡纵坐标为p-value(或FDR)的-log10,值越大,富集越显著,阈值线为p或FDR为0.05的参考线。对于p值显著的条目,可以在气泡上标注条目ID。横轴表示基因上下调数目的归一化值Zscore,计算公式如下(count为某条目包含的上下调基因数之和):

上下调气泡图的优势在于体现条目富集分析p值的同时体现条目中包含的上调基因数和下调基因数的差异情况,当然Zscore为0的条目并不是不重要,只是条目中包含的上下调基因数相同。当重点关注上调趋势基因或下调趋势基因时,可以关注上下调气泡图中靠近两侧的条目。


06 DAG(有向无环图)

有向无环图利用了GO数据库的层级分类结构,显示富集条目的分类上层条目的富集情况。矩形表示5个富集最显著的条目,矩形颜色代表富集的相对显著性,范围从深红色(最显著)到亮黄色(最不显著)。对于每个节点,都会显示一些基本信息。前两行显示GO标识符和名称;第三行显示了原始p值;第四行显示了差异基因的数目和注释到相应GO条目的基因总数(比例即为富集因子)。

DAG图的优势在于显示显著富集条目的上层条目的富集情况和条目间可能的关联。



07 KEGG层级柱状图


左侧为KEGG通路名,右侧为KEGG一级分类,使用不同颜色区分不同分类。柱子高度和数字表示通路包含的差异基因数目,而横轴为对应的比例。

KEGG层级柱状图的优势在于显示KEGG通路的大类信息,有利于大类信息的显示与基于大类信息的目标通路引出。


08 GSEA富集分析ES峰图


图最上面部分展示的是ES值计算过程,从左至右每到一个基因,计算出一个ES值,连成线。最高峰为富集得分(ES)。在最左侧或最右侧有一个特别明显的峰的基因集通常是感兴趣的基因集;图中间部分每一条线代表基因集中的一个基因,及其在基因列表中的排序位置;图最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(实验组)正相关,在实验组中表达高,蓝色与第二个表型(对照组)正相关,在对照组中表达高;图中Leading-edge subset是定义对Enrichment score贡献最大的基因,为核心基因。若富集得分为正值,则是峰左侧的基因。若富集得分为负值,则是峰右侧的基因。

通过在图中添加GSEA富集分析的p值、FDR值、NES值可以显示目标基因集在处理组或对照组中的富集程度。



09 GSEA富集分析柱状图


柱状图横轴为GSEA分析的NES值,横坐标为基因集名称,柱子方向表示NES的正负,柱子颜色为GSEA分析的原始p值或FDR值,p值或FDR值越小,柱子颜色越红。GSEA富集分析柱状图的优势在于简洁显示多个基因集的富集情况。



10 多基因集ES峰图


如果需要体现多个基因集的GSEA富集分析ES峰图,可以将其整合并简化。不同颜色表示不同基因集,在图上可以添加GSEA分析的p值和FDR值(p.adjust)。

多基因集ES峰图相对于GSEA官方的ES峰图更简洁美观,有利于使用GSEA最经典的图形形式体现多个基因集的富集结果。


相关阅读

揭秘时刻: 转录调控工具书封面大揭秘!你的封面你做主!(100本新书免费送)

做测序不看通路怎么行?这份KEGG数据库介绍请拿走 | 转录调控专题

我的非编码RNA居然翻译蛋白?这些数据库赶紧用起来!| 转录调控专题

多个组学数据筛选利器:Venn与Upset图 | 转录调控专题

这个分析可以提升转录组逼格,联川即将更新(文末有彩蛋) | 转录调控专题


点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存